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摘要 : [目的 /意义 ] 为 知识 直播 平台 精细 化 地 定位 人 群 特征 、 进 行 针对 性 运营 并 挖 气 潜 在 价值 用 户 提 供 有 
效 的 思路 和 方法 。[ 方 法 /过 程 ] 以 知识 直播 平台 为 研究 对 象 ,首先 设计 群体 画像 的 概念 模型 ,然后 提出 基于 密 
度 峰 值 聚 类 的 知识 直播 平台 付费 用 户 群 体 画像 的 方法 ,最 后 以 知 乎 live 平台 的 付费 用 户 数据 为 样本 ,使 用 Mat- 
lab 中 的 密度 峰值 聚 类 算法 对 样本 数据 进行 群体 划分 。[ 结果 /结论 ] 实验 结果 表明 该 平台 存在 5 类 典型 的 用 户 
群体 ,通过 对 聚 类 中 心 点 的 对 比分 析 , 识 别 出 各 群体 典型 特征 ,并 提出 精准 运营 策略 。 
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互联 网 络 信息 中 心 (CNNIC ) 发 布 的 第 42 次 《中 
项 了 喘 网 络 发 展 状况 统计 报告 数据 显示 ,截至 2018 年 
6 月 嵌 , 网 络 直播 用 户 数量 达到 4.25 亿 , 占 网 民 总 数 的 
5390 1 。 在 这 种 大 背景 下 ,以 知识 即时 传播 为 目的 的 


体 ” 。 在 移动 通信 领域, 丁 伟 等 在 保证 用 户 隐私 安全 
的 前 提 下 ,通过 分 析 用 户 的 通信 记录 研究 用 户 画 像 在 
个 人 征 信 中 的 应 用 ;在 图 书馆 领域 , 王 庆 等 研究 了 图 
BB 馆 用 户 画 像 模 型 ,并 从 单 用 户 与 多 用 户 两 个 层面 设 


jn 


知 况 直播 平台 异军突起 , 现 已 成 为 用 户 进行 知识 交 
志 鬼 新 型 社交 平台 。 与 此 同时 ,共享 经 济 催生 了 知 
讶 首播 平台 中 付费 产品 的 上 线 , 用 户 通过 支付 一 定 
费用 , 按 自身 需求 获取 针对 性 的 优质 内 容 。 用 户 持 
绪 什 费 是 知识 直播 平台 实现 商业 价值 的 关键 ,因此 ， 
对 伍 费 用 户 进行 群体 画像 ,识别 其 典型 特征 及 洪 在 
需 孙 ,对 于 平台 提供 精准 服务 .维系 核心 用 户 与 制定 
发 展 战 略 至 关 重要 。 

用 户 画 像 作为 勾画 目标 用 户 、 提 高 决策 效率 的 有 


计 了 图 书馆 馆藏 资源 的 精准 推荐 模式 。 由 此 可 见 ， 
用 户 画 像 已 成 为 学 术 界 关注 的 热点 ,但 由 于 知识 直播 
平台 尚 属 新 兴 事 物 ,目前 将 用 户 画 像 应 用 于 知识 直播 
平台 的 研究 相对 较 少 ,对 知识 付费 背景 下 付费 用 户 的 
特征 及 群体 画像 的 研究 更 为 匮乏 。 
因此 ,本 文 立足 于 国内 外 研究 现状 ,将 用 户 画 像 思 
想 应 用 于 知识 直播 平台 的 付费 用 户 群 体 。 通 过 构建 付 
费用 户 群体 画像 概念 模型 ,采集 平台 上 的 客观 数据 并 
进行 聚 类 分 析 , 把 平台 上 的 付费 用 户 描绘 成 几 类 典型 


效 工具 , 现 已 在 各 领域 得 到 广泛 应 用 。 在 电子 商务 领 
域 ,K. Sugiyam 等 抓 取 了 用 户 览 行为 结果 评价 等 信 
息 ,构建 用 户 的 偏好 模型 并 进行 针对 性 推送 ,实现 用 户 
与 平台 的 协同 交互 ”。 在 社交 网 络 领域 , 王 凌 雷 等 从 
用 户 的 资历 .参与 度 .回答 质量 、 发 展 趋势 4 个 方面 构 
建 了 社会 化 问答 社区 的 用 户 画 像 ,并 采集 知 乎 数据 验 
证 结果 ,为 进行 社会 化 问答 社区 的 用 户 分 层 ,行为 监控 
提供 参考 ; 林 燕 起 基于 社会 认同 理论 按照 主题 偏好 
对 微 博 用 户 群 体 分 类 ,并 利用 多 文本 挖 据 其 主题 偏好 ， 
通过 用 户 特征 属性 的 提取 ,将 微 博 用 户 归纳 为 5 类 群 
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] 户 。 将 传统 的 单个 用 户 追 踪 转 变 为 对 群体 的 抽象 概 
括 ,从 而 为 平台 运营 者 实现 精准 化 运营 、 助 力 产 品 快速 
变现 提供 借鉴 参考 。 


1 相关 概念 与 文献 
1.1 知识 直播 平台 
作为 知识 的 生产 ,传播 消费 一 体 化 平台 ,知识 直 
播 平 台 是 指 掌握 某 领 域 专业 知识 或 技能 特长 的 知识 供 
给 方 ,利用 互联 网 及 多 媒体 技术 ,将 自身 的 知识 技能 实 
时 传递 给 知识 需求 方 ,使 知识 得 以 有 效 传播 并 可 进行 
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变现 的 互动 性 社交 平台 ”。 目 前 国内 影响 力 较 大 的 知 
识 直 播 平 台 包 括 知 乎 live、 美 时 美 刻 、 知 深 、 荔 村 微 课 
等 ;国外 有 Open English ,Platzi 、Livecoding 等 。 

当前 学 者 们 对 知识 直播 平台 的 研究 多 在 运营 策 
略 、 传 播 模式 ,用户 行为 等 方面 ,例如 杨 项 运用 长 尾 理 
论 分 析 了 知 乎 live 平台 知识 生产 传播 .消费 三 阶段 的 
运营 模式 ”; 王 亮 研究 了 实时 语音 直播 社区 的 传播 模 
式 与 知识 变现 路 径 ”; 用 户 行为 层面 多 关注 用 户 参与 
动机 ”或 用 户 付 费 影响 因素 。 对 知识 直播 平台 用 
户 画像 的 应 用 仅 为 用 户 分 层 的 理论 性 分 析 ” ,缺乏 以 
大 量 数据 为 支撑 的 实践 性 探索 。 
1.2 付费 用 户 群 体 画像 

用 户 画 像 也 称 用 户 标签 化 , 即 根据 用 户 的 社会 属 
性 s 生 活 习惯 消费 行为 等 数据 标签 ,抽象 出 一 个 能 够 
概 控 用 户 全 狐 的 模型 '” 。 用 户 画 像 包括 单个 用 户 画 


修 与 用 户 群 体 画像 两 个 方面 ,单个 用 户 画 像 要 求 用 尽 


境 下 高 效 分 析 大 规模 用 户 数据 ,把 握 用 户 特征 及 需 
求 '” 。 这 一 思想 已 得 到 广泛 应 用 :吴江 等 使 用 上 - 
means 算法 对 用 户 育 类 来 识别 用 户 角色 ” ; 杨 卫 红 等 
使 用 k-means 算法 对 用 户 的 用 电 行 为 进行 聚 类 '” 。 但 
是 K-means 聚 类 需 人 为 事先 设 定 类 簇 个 数 , 而 类 簇 的 
选 定 往往 难以 估计 。 陈 娟 等 ” 使 用 层次 聚 类 来 产生 
初始 聚 类 中 心 ,E. A. Mohammed 等 提出 EIAgha 初始 化 
算法 ,认为 可 以 根据 数据 的 排列 形状 确定 聚 类 中 心 
点 ” ,但 上 述 方法 计算 复杂 、 只 能 得 到 局 部 最 优 结 果 ， 
不 利于 处 理 大 规模 复杂 数据 。 

密度 峰值 聚 类 算法 (Density Peaks Clustering Algo- 
rithm ,DPCA ) 是 由 A. Rodriguez 和 A. Laio 提出 的 一 种 
基于 密度 和 距离 的 聚 类 算法 。 它 能 够 快速 发 现任 
意 形状 、 规 模 的 类 簇 中 心 , 不 需 人 为 确定 类 簇 个 数 , 样 
本 点 归 类 无 需 授 代 求解 ,适用 于 大 规模 的 数据 人 处理, 已 
经 应 用 于 遥感 图 像 分 析 、 社 交 网 络 文本 发 现 、 文 本 摘 


多 的 标签 描述 一 个 用 户 的 特征 ,目的 是 展示 不 同 用 
欧 体 的 独立 性 与 差异 性 ,但 不 利于 分 析 大 规模 用 户 
数 握 或 制定 群 组 推荐 策略 "”"。 群 体 画 像 是 指 运用 分 
奖 沫 类 等 方法 根据 标签 数据 计算 用 户 间 的 相似 度 并 
抛 是 有 相似 特点 的 用 户 划分 到 同一 类 艇 后 再 进行 特征 
措 填 "。 引 入 群体 画像 思想 将 平台 上 的 付费 用 户 归纳 
党 让 个 典型 的 虚拟 人 物 ,抽象 出 共性 特征 并 描绘 出 具 
有 次 异 化 的 用 户 模型 ,目的 是 为 平台 运营 者 在 大 数据 
政 蚂 下 快速 把 握 付费 用 户 特征 、 制 定 精准 营销 战略 提 
供 容 考 。 

“三 当前 群体 画像 已 在 网 站 ,图 书馆 学科 服务 等 领域 
得 可 有 益 尝 试 。J. A. Iglesias 等 控 据 了 网 页 上 的 日 志 
数据 并 运用 聚 类 方法 刻画 出 不 同 群 体 的 用 户 画 像 ” ; 
王 顺 苹 基于 社会 网 络 的 聚合 策略 进行 了 图 书馆 群体 推 
荐 系统 的 可 行 性 探究 ; 薛 欢 雪 从 4 个 维度 构建 了 学 
科 服 务 用 户 画 像 模型 ""”。 上 述 研究 为 付费 用 户 群 体 
画像 设计 提供 了 一 定 的 思路 ,但 这 些 研究 多 为 理论 性 
的 宏观 画像 ,不 利于 处 理 大 规模 用 户 数据 , 且 画 像 粒度 
较为 粗糙 。 由 于 知识 直播 平台 在 提供 付费 知识 的 同 
时 ,还 兼 具 社交 功能 ,付费 用 户 群体 的 标签 构成 更 为 
复杂 ,数据 量 也 更 大 ,因此 在 构建 付费 用 户 群 体 画像 
时 应 综合 考虑 付费 用 户 的 多 方面 属性 及 特殊 性 , 采 
集 大 量 客观 数据 ,构建 立体 ` 细 致 .针对 性 强 的 群体 
画像。 

1.3 ”知识 直播 平台 付费 用 户 群 体 画像 方法 的 提出 


要 图像 分 类 等 多 个 领域 ”。 知 识 直播 平台 的 付费 用 
户 数据 量 大 数据 分 布 形态 未 知 ,无 法 事先 确定 合理 的 
类 簇 个 数 。 因 此 本 文选 用 密度 峰值 算法 对 样本 进行 聚 
类 ,充分 发 挥 密度 峰值 聚 类 在 处 理 高 维 数据 时 的 优越 
性 ,完全 依靠 无 监督 的 聚 类 结果 ,保证 群体 画像 的 客观 
性 。 


2 知识 直播 平台 付费 用 户 群体 画像 设计 


2.1 知识 直播 平台 付费 用 户 群体 画像 构建 流程 

从 用 户 群 体 画 像 的 概念 思 可 以 看 出 ,构建 群体 画 
像 包 含 用 户 标签 确定 、 数 据 采集 处 理 . 方 法 选择 与 实 
验 画像 呈现 等 环节 。 典 型 的 用 户 画像 构建 方法 有 A. 
Cooper 的 “七 步 人 物 角 色 法 ”和 工 .Nielsen 的 “十 步 人 
物 角 色 法 ”” ,这 两 个 方法 在 流程 上 可 概括 为 研究 并 
获取 用 户 信息 、 细 分 用 户 群 ,建立 并 丰富 用 户 画 像 三 个 
阶段 。 因 此 ,本 文 结合 用 户 群 体 画 像 概 念 及 “七 步 ” 
“十 步 ”" 人 物 角色 法 ,确定 知识 直播 平台 付费 用 户 群体 
画像 的 构建 流程 :设计 概念 模型 。 结 合用 户 的 静态 
数据 与 动态 数据 ,从 多 个 维度 设计 付费 用 户 画 像 标 签 。 
@ 运 用 密度 峰值 聚 类 算法 实现 群体 划分 。 过 程 包括 数 
据 采集 . 预 处 理 .变量 确定 与 仿真 实验 。@ 根 据 聚 类 结 
果 提 取 类 别 特 征 ,呈现 群体 画像 并 提出 精准 运营 策略 。 
见 图 1。 
2.2 知识 直播 平台 付费 用 户 群 体 画 像 的 概念 模型 

用 户 群 体 画 像 具 有 较 强 的 领域 性 ,构建 时 应 充分 


构建 用 户 群体 画像 是 聚 类 算法 的 典型 应 用 场景 之 
一 上 ,通过 聚 类 得 到 差异 化 群体 模型 ,可 在 大 数据 环 


稼 虑 实际 应 用 场景 ,反映 出 情景 化 用 户 特征 。 知 识 直 
播 平 台 的 付费 用 户 群 体 具有 一 定 的 特殊 性 。 首 先 , 当 
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密度 峰值 豪 类 


精准 运营 策略 


2.2.2 付费 用 户 偏好 属性 ”付费 用 户 偏好 是 指 付费 


基础 数据 采集 em"| 群体 划分 。 特征 提取 >| 群体 画像 呈现 


用 户 对 某 一 事物 的 倾向 及 关注 程度 ,用 户 往往 通过 
日 常 的 行为 偏好 来 辅助 购买 决策 。 知 识 直播 平台 是 
以 内 容 为 主导 的 价值 型 平台 ,有 利于 用 户 高 效 筛选 


图 1 知识 直播 平台 付费 用 户 群 体 画像 构建 流程 


前 的 知识 直播 平台 多 为 综合 型 ,涵盖 主题 丰富 ,因此 其 
付费 用 户 来 源 广泛 专业 需求 突出 。 其 次 , 相 较 于 传统 
的 教育 类 培训 平台 ,知识 直播 平台 不 仅 是 传递 知识 的 
载体 ,也 提供 关注 .提问 的 交流 功能 ,因而 其 付费 用 户 
互动 性 强行 为 偏好 标签 更 为 丰富 。 最 后 ,付费 用 户 群 
体 通过 支付 费用 获取 知识 ,具有 一 定 的 经 济 基础 ,消费 
特征 明显 。 上 述 特点 使 得 付费 用 户 群 体 的 标签 构成 更 
为 复杂 ,因此 本 文 在 构建 付费 用 户 群体 画像 时 综合 

虑 付费 用 户 的 多 维特 征 ,充分 挖 气 用 户 静 态 的 基本 属 
性 及 动态 的 行为 属性 ,从 付费 用 户 基本 属性 、 付 费用 户 
在 只 台 关注 或 提问 而 形成 的 偏好 属性 以 及 付费 用 户 在 
购 避 决策 过 程 中 的 价值 属性 3 个 维度 构建 知识 直播 平 
侣 时 费用 户 群 体 画像 概念 模型 。 
付费 用 户 基本 属性 ”付费 用 户 基本 属性 由 结 
梅 侧 的 静态 数据 组 成 ,反映 了 付费 用 户 的 基本 特征 ,是 


言 息 ,满足 对 特定 知识 的 需求 。 因 此 ,在 确定 用 户 的 
局 好 属性 时 ,应 考虑 用 户 的 直观 需求 及 关注 倾向 。 
以 即时 间 管 类 知识 直播 平台 一 一 知 乎 live 为 例 ,用户 
可 以 通过 “提问 ”功能 直接 表达 自己 的 知识 诉求 ,以 
“收藏 "的 方式 进行 知识 沉 诞 ,满足 自身 的 个 性 化 需 
求 。 同 时 ,关注 感 兴趣 的 讲师 及 其 他 用 户 .关注 相关 
话题 内 容 等 体现 出 用 户 在 平台 上 的 活跃 程度 与 意愿 
倾向 。 从 这 一 维度 考虑 ,付费 用 户 偏 好 属性 应 包括 
提问 数 、 收 藏 数 、 关 注 人 数 、 关 注 内 容 数 4 个 标签 ,其 
中 提问 数 属于 显 性 需求 标签 ,其 余 3 个 属于 隐 性 需求 
标签 。 
2.2.3 付费 用 户 价 值 属性 ”付费 用 户 价值 属性 由 在 
判断 用 户 对 于 平台 的 价值 , 即 付费 用 户 对 平台 的 利润 
贡献 情况 。 引 导 普 通用 户 完成 付费 并 持续 付费 ,提高 
用 户 忠 诚 度 及 消费 秋 度 ,不 断 为 平台 输出 价值 ,是 知识 
直播 平台 实现 知识 变现 的 主要 途径 。 因 此 ,了 解 用 户 
的 价值 体现 ,挖掘 高 价值 群体 并 针对 性 地 刺激 消费 是 
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梅 赴 用 户 画像 的 基础 。 其 中 ,性 别 特 征 是 群体 行为 、 偏 
好 耻 及 需求 趋向 的 影响 因素 之 一 ,因此 构建 付费 用 户 
群体 画像 需 识别 性 别 特征 。 由 于 知识 直播 平台 以 知识 
鳃 向 传播 为 目的 ,用 户 根据 自身 兴趣 及 需求 参与 相 
应 移 直 播 课程 ,因此 在 构建 画像 时 应 考虑 用 户 的 学 历 、 
专 驱 所 在 行业 .企业 及 职位 。 此 外 ,居住 地 体现 了 付 
费 氏 户 的 地 域 特征 。 因 此 ,付费 用 户 基本 属性 由 性 别 、 
学 历 ,专业 ,行业 企业、 职位 ,居住 地 7 个 标签 组 成 。 


平台 运营 发 展 的 关键 。 用 于 用 户 价 值 分 析 的 RFM 模 
型 从 最 近 消 费时 间 (recency) 消费 频率 (frequency) 、 消 
费 金额 (monetary)3 个 方面 细 分 了 用 户 群 体 与 用 户 价 
值 ” , 除 此 之 外 ,分 析 用 户 首次 消费 时 间 及 参与 次 数 
对 于 及 时 挖掘 新 付费 用 户 ,维系 忠诚 用 户 群 体 \ 促 进 用 
户 持 续 付 费 具有 重要 意义 ,因此 这 一 属性 维度 选取 了 
首次 消费 时 间 、 末 次 消费 时 间 参与 次 数 、 消 费 频 率 、 消 
费 金额 5 个 标签 。 


首次 消 | | 末次 消 参与 
费时 间 | | 费时 间 次 数 


消费 消费 


图 2 付费 用 户 群体 画像 概念 模型 
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3 基于 密度 峰值 聚 类 的 知识 直播 平台 


付费 用 户 群 体 画 像 的 实现 
3.1 密度 峰值 聚 类 原理 及 步骤 


3.1.1 密度 峰值 聚 类 原理 ”密度 峰值 聚 类 算法 有 两 
个 基础 假设 ” :中 肾 类 中 心 始终 被 低 密 度 点 包围 ;@ 
聚 类 中 心 点 之 间 相 距 较 远 。 对 于 每 个 数据 点 x;, 都 存 
在 一 个 局 部 密度 值 p;, 当 数 据点 为 离散 时 ,利用 公式 
(1) 计 算 局 部 密度 值 p;; 当 数 据点 为 连续 时 ,采用 公式 
(2) 来 计算 局 部 密度 值 p;。 


pi= Sx(dy-d.) 公式 (1) 
= ?ep| - 癌 状 起 (中 
_ 其 中 函数 
一 全 天 二 全 
韦 和 -| xx 二 0 


DECA 聚 类 的 结果 ,该 参数 一 般 由 升序 排序 的 数据 点 
距 洲 中 的 前 1% -2% 的 距离 所 决定 。 


a 公式 (5) 
max(d,) , py 为 全 局 最 高 


“ 当 数 据点 % 具有 最 大 局 部 密度 时 ,6, 表示 数据 集 
s 中 与 距离 最 大 的 数据 点 到 x 的 距离 ;否则 ,6, 表示 
在 所 有 的 局 部 密度 大 于 x, 的 数据 点 中 ,与 «距离 最 小 
的 那个 数据 点 到 的 距离 。 
3.1.2 密度 峰值 聚 类 步骤 DPCA 的 核心 思想 是 同时 
考虑 局 部 密度 值 p, 和 距离 5 ,采用 二 维 平面 提取 聚 类 
中 心 点 , 即 把 局 部 密度 值 p, 看 做 横 轴 , 把 距离 6 看 做 
纵 轴 ,提取 密度 较 大 且 与 其 他 参考 点 之 间距 离 较 大 的 
点 作为 聚 类 中 心 点 。DPCA 算法 具体 步骤 如 下 : 
步骤 1: 计 算 截断 距离 4,。 首 先 根据 公式 4 计算 数 
据点 间距 离 d,; 然 后 将 数据 点 间距 离 d, 按 升序 排序 ; 
最 后 根据 排序 选择 合适 的 数据 点 来 决定 d, 的 值 。 
步 又 2: 选 取 类 艇 中 心 。 首 先 ,根据 公式 (1) .公式 
(2) 和 公式 (5) 分 别 计算 m 和 6,; 然 后 将 所 有 备 选 点 的 
密度 按 降序 排序 ;最 后 把 具有 高 p; 值 和 相对 较 高 5, 值 


Mo min d;, i 宇 1 
- -| 


的 备 选 点 标记 为 类 簇 中 心 点 。 

步骤 3: 分 配 非 类 簇 中 心 点 到 相应 的 类 簇 中 心 。 
即 根据 5; 值 的 从 属 关系 将 非 类 簇 中 心 点 依次 依附 于 
其 更 高 密度 中 心 点 上 。 

步 又 4: 聚 类 结果 展示 。 

3.2 ”数据 采集 与 预 处 理 

3.2.1 数据 采集 本 文 以 即时 间 答 类 知识 直播 平 
台 一 一 知 乎 live 为 研究 样本 。 在 知 乎 live 平台 中 , 主 
讲 人 首先 创建 一 个 live 直播 群 ,然后 系统 自动 将 live 
推送 给 关注 主讲 人 的 用 户 , 用 户 点 击 并 支付 相应 金额 
(由 主讲 人 设 定 ) 便 可 进入 到 直播 群 中 。 直 播 群 以 语 
音 形式 分 享 专业 有 趣 的 知识 ,并 通过 即时 互动 提高 信 
息 交 流 效率 。 为 了 保证 数据 的 客观 性 和 代表 性 ,本 文 
选取 2016 年 6 月 -2018 年 1 月 间 的 8 场 不 同类 别 的 
live 为 数据 样本 ,涉及 职业 教育 .艺术 .互联 网 ,心理 
学 .音乐 影视 .医学 健康 与 生活 方式 8 个 领域 。 按 照 付 
费用 户 群 体 画 像 概念 模型 提出 的 16 个 标签 ,利用 八 扑 
鱼 采 集 器 批量 采集 了 18 520 个 付费 用 户 的 相关 信息 ， 
共 287 523 个 数据 。 将 获取 的 付费 用 户 数据 存储 于 
MySQL 数据 库 中 ,作为 知识 直播 平台 付费 用 户 群 体 画 
像 的 样本 数据 。 
3.2.2 ”数据 预 处 理 ”用户 注 册 信 息 不 完整 .不 规范 以 
及 数据 形式 多 样 会 影响 聚 类 效果 。 在 运用 上 聚 类 算法 进 
行 用 户 群 体 划分 之 前 ,需要 对 采集 的 信息 进行 预 处 理 ， 
主要 包括 以 下 几 个 步骤 : 

(1) 样 本 数据 清洗 。 首 先 ,通过 初步 筛选 ,删除 包 
含 重复 值 与 异常 值 的 数据 。 由 于 用 户 填 写 注册 信息 时 
往往 具有 随意 性 和 主观 性 ,需要 人 工 对 用 户 基本 信息 
进行 审查 ,将 基本 信息 数据 残缺 与 不 规范 的 样本 予以 
剔除 。 这 一 过 程 共 剔 除 3 320 个 样本 。 

(2) 吻 除 部 分 变量 。 空 值 过 多 会 导致 数据 稀 蚊 ， 
影响 聚 类 效果 。 因 此 需 剔 除 空 值 率 超过 标准 值 的 变 
量 。 定 义 数据 为 空白 或 不 能 识别 的 值 (null ) 为 空 值 ， 
映射 在 某 变量 的 数据 空 值 率 = 该 变量 为 空 值 的 样本 
数 / 有 效 样本 总 数 , 设 定 空 值 率 为 23% 以 下 为 有 效 变 
量 。 经 过 计算 ,用 户 学 历 专业、 企业 .职位 4 个 变量 的 
空 值 率 分 别 为 35% 42% 47% .43% , 故 将 其 剔除 。 

(3) 转 化 与 编码 。 原 始 数 据 包括 数值 型 数据 与 文 
本 型 数据 两 类 ,为 了 满足 聚 类 分 析 对 数据 类 型 的 要 求 ， 
需 将 文本 型 数据 转化 为 数值 型 数据 。 将 值 域 为 [ 男 ， 
女 ] 的 性 别 变量 转化 为 [1, -1]; 居 住地 变量 下 识别 出 
54 个 不 同 的 城市 ,数据 较为 分 散 ,不 便于 分 析 聚 类 结 
果 。 因 此 ,本 文 按照 4 中国 城 市 新 分 级 名 单 》 将 54 个 城 
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市 划分 到 相应 层级 中 ， 
统一 归 为 0, 
2,3,4]。 
数据 为 时 间 


征 的 明显 化 ,将 首次 消 


用 数字 1 -4 表示 ,海外 居住 地 


经过 处 理 后 ,居住 地 变量 的 值 域 为 [0 ,1， 
此 外 ,原始 数据 中 首 ,未 次 消费 时 间 变 量 下 的 
型 数据 ,为 了 使 数据 相对 集中 便于 聚 类 特 


费时 间距 今 6 个 月 以 内 的 记 为 


1,6 -12 个 月 记 为 2,1 
时 间 的 值 域 为 (1 ,2,3 


2 个 月 以 上 的 记 为 3, 首 次 消费 
;将 最 近 消费 时 间 的 标准 设 定 为 


90 天 ,90 天 内 有 消费 的 记 为 1 ,无 消费 的 记 为 0, 最 近 


消费 时 间 的 值 域 为 [1 


Qs 


表 1 不 同 百分比 下 对 照 实 验 结果 数据 ( 部 分 ) 


上 Elements 


Elements 


(4) 数 据 计算 。 由 于 知 乎 live 平台 提供 的 公开 数 
据 中 不 包括 用 户 消费 金额 ,消费 频率 两 个 变量 的 数据 ， 
但 可 采集 到 用 户 参 与 的 live 总 数 以 及 每 场 live 单价 ， 
所 以 对 于 付费 用 户 价值 属性 中 的 消费 金额 ,消费 频率 
(每 月 ) 两 个 变量 标签 可 3 


通过 人 工 计算 得 出 。 
一 经 过 上 述 处 理 后 ,保留 12 个 变量 ,再 次 剔除 在 这 
些 变量 的 映射 中 不 完整 的 样本 ,最 终 获 得 有 效 样本 n 
1 543 。 
3 的 基于 密度 峰值 聚 类 的 知识 直播 平台 付费 用 户 群 
做 葬 像 的 实现 
3 G- 站 ” 归 一 化 处 理 ” 本 文 借助 于 Matlab 软件 实现 聚 
闫 后 验 。 原 始 数据 的 值 域 相差 较 大 会 影响 聚 类 结果 的 
准确 性 ,因此 利用 Matlab 工具 箱 中 的 函数 进行 权 值 和 
阅 依 的 初始 化 ,并 采用 PREMNMX 函数 对 样本 数据 进 
行 贤 一 化 处 理 ,以 提高 聚 类 算法 的 收敛 效 率 。 
3B3S2 d, 的 确定 及 聚 类 中 心 选择 ”DPCA 算法 根据 
若 生 数据 集 的 经 验 值 选取 蕉 刀 距 离 中 ,其 计算 公式 为 ; 
它 d =D,,,(N x* percent) 公式 (6) 
OO 其 中 ,D, 为 数据 集 的 数据 点 间距 离 升 序 集合 ,N 
为 该 集合 的 总 量 ,percent 为 平均 邻近 点 数目 百分比 。 
DPCA 算法 提出 时 作者 建议 percent 一 般 取 值 为 1% - 
2% [1 。percent 取 值 过 大 会 提高 类 簇 边 缘 点 的 局 部 密 
度 , 使 类 簇 过 少 其 至 所 有 数据 点 都 归 到 一 个 类 之 中 。 
取 值 过 小 会 导致 类 簇 密度 峰值 点 的 核心 密度 值 不 够 凸 
显 , 影 响 类 簇 中 心 点 的 确定 ”。 因 此 ,其 最 终 取 值 应 
与 研究 实际 相关 。 本 研究 分 别 选 取 percent 为 1% - 
5% 的 多 个 截断 距离 ,使 用 Matlab 软件 进行 对 照 实 验 ， 
限于 篇 幅 , 只 展示 部 分 数据 ( 见 表 1) 。 

表 1 中 ,Elemenis( max) 表示 类 簇 中 最 多 的 数据 点 
个 数 ,Elements( min) 表示 类 簇 中 最 少 的 数据 点 个 数 ， 
数据 点 过 多 过 少 都 会 影响 聚 类 结果 的 代表 性 与 说 服 
力 。Silhouette 系数 (轮廓 系数 ) 是 一 种 衡量 聚 类 结果 
的 指标 ,其 取 值 在 [ -1,1] 之 间 , 该 值 越 接 近 于 1, 说明 
徐 内 越 紧凑 , 离 其 他 篮 越 远 '”% 。 其 计算 公式 为 : 
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percent centers Crp) ai silhouette de 
1% 归 3 885 609 0.337 4 0.096 7 
1.5% 6 3 837 667 0.41 76 Ql18 1 
2.5% 6 5 990 637 0.469 6 0.1546 
3.3 鸡 5 5 936 708 0.555 2 0.183 7 
4.5% 5 S903 771 0.5647 0.2095 
5% 5 3927 751 0.5604 0.2213 
s(i) 二 do 一 do 公式 (7) 
max | dss, > de 


其 中 ,di 表示 数据 点 i 与 其 他 类 最 低 平 均 不 相似 
度 ,di 表示 数据 点 i 与 它 所 在 类 的 平均 不 相似 度 。 经 
过 实验 可 知 , 当 percent 取 值 为 4.5% 时 ,silhouette 系数 
最 大 , 且 此 时 每 一 类 簇 中 数据 点 数量 合理 ,可 对 样本 数 
据 进 行 科学 合理 的 群体 划分 。 因 此 ,确定 d, 为 
0.209 5 ,得 到 密度 峰值 决策 图 ( 见 图 3)。 其 中 横 轴 p 
代表 不 同类 型 样本 点 之 间 的 欧 氏 距离 , 纵 轴 6 代表 同 
一 类 型 样本 点 之 间 的 欧 氏 距离 , 即 同类 型 样本 的 紧密 
程度 。 图 中 可 看 出 明显 区 分 的 中 心 点 有 5 个 , 即 样 
本 被 分 为 5 类 。 


0 500 


1000 1 500 
p 


3 密度 峰值 决策 图 


聚 类 中 心 选 取 效 果 图 (gamma 曲线 ) 如 图 4 所 示 ， 
横 轴 代表 样本 编号 n, 纵 轴 代 表 密 度 p 与 距离 5 的 乘积 
y。8gamma 曲线 呈 下 降 趋 势 ,并 且 逐 步 瘟 近 横 轴 , 说 明 
聚 类 中 心 突出 ,曲线 趋 于 平缓 之 前 的 点 均 可 作为 聚 类 
中 心 点 。 图 中 曲线 平缓 之 前 出 现 5 个 点 ,与 本 文选 取 
的 中 心 点 个 数 一 致 ,证 明 聚 类 中 心 选取 得 合理 。 


4 实验 结果 与 分 析 


4.1 群体 划分 结果 
经 过 密度 峰值 算法 的 聚 类 ,得 到 5 个 聚 类 中 心 点 ， 
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4 聚 类 中 心 选取 效果 图 


即 知 乎 live 平台 的 付费 用 户 样 本 被 划分 成 5 类 群体 ， 
分 群 结果 如 表 2 所 示 。 根 据 表 2 可 知 ,各 类 别 的 样本 
数 分 别 为 5 903 .771 .804 1 428 .3 639 ,所 占 比 重 分 别 
.05% .6. 15% .6. 41% .11. 38% .29.01% 。 样 本 
中 的 第 706 .5 717 .8 337 .8 637 .10 242 组 数据 为 


表 2 知 乎 live 付费 用 户 分 群 结 果 


上 Elements Proportion Center 
5 903 47.05% 706 
771 6.15% 5717 
804 6.41% 8 337 
4 1 428 11.38% 8 679 
5 3 639 29.01% 10 242 
》 整体 画像 呈现 


.三 为 了 给 用 户 群 体 画 像 分 析 提 供 参 考 标准 ,从 而 更 


求 ,对 于 高 隐 性 需求 的 用 户 可 以 通过 回访 、 调 研 等 方式 
明确 用 户 偏 好 ,通过 推送 相关 课程 触 达 用 户 , 以 引起 用 
户 的 需求 共鸣 。 价 值 维 度 方面 ,消费 金额 在 1 000 元 
以 上 的 仅 占 11.9% ,主要 集中 在 50 元 以 下 和 100 元 - 
400 元 ,消费 水 平 以 中 低 等 为 主 。 
4.3 群体 画像 呈现 及 精准 运营 策略 

聚 类 中 心 点 即 密度 较 高 .相互 距离 较 远 的 点 ,各 类 
中 其 他 的 点 均 以 此 为 中 心 ,因此 可 将 密度 中 心 点 视 为 
各 群体 的 典型 代表 。 通 过 类 比 各 类 得 中 心 点 ( 见 表 
3 ) ,结合 各 个 标签 变量 的 取 值 范围 ,可 以 分 析 得 出 各 和 群 
体 用 户 差 异化 的 属性 特征 ,得 到 知识 直播 平台 付费 用 


户 的 群体 画像 。 
表 3 各 类 簇 样本 中 心 点 
Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 
性 别 1 1 1 1 1 
居住 地 1 2 2 2 3 
行业 1( 互 联网 ) 4( 法 律 ) 2( 教 育 ) 6( 人 金融 ) 2( 教 育 ) 
收藏 数 70 18 4 79 1 
关注 人 数 180 55 300 182 17 
关注 内 容 数 72 5 5 55 5 
提问 数 37 1 2 38 0 
参与 次 数 79 1 10 4 2 
首次 消费 3 3 2 2 1 
末次 消费 1 0 1 0 1 
消费 频率 5.64 0.70 3 1.33 1 
消费 金额 1975 122.5 99 79.2 39.8 


过 对 比分 析 可 得 到 5 类 用 户 的 群体 画像 : 
4.3.1 六 型 价值 用 户 ”所 占 比例 将 近 一 半 , 这 类 群 
体 中 男性 居多 ,多 数 在 北 、 上 \ 广 \ 深 等 一 线 城市 从 事 互 
联网 金融 等 行业 ,说 明知 乎 live 在 一 线 城 市 中 拥有 坚 


好 起 识 另 别 各 群体 用 户 的 差异 化 特征 ,在 进行 群体 画像 
之 前 首先 对 全 样本 数据 进行 分 析 , 运 用 SPSS20.0 统计 
软件 对 样本 数据 进行 描述 性 统计 性 分 析 , 刻 画 知 乎 live 
平台 付费 用 户 整 体 画 像 。 

整体 画像 为 :男性 用 户 有 8 224 人 , 占 比 65.6%， 
女性 用 户 有 4 321 人 , 占 比 34.4% ,说 明知 乎 live 平台 
的 付费 用 户 以 男性 为 主 。 一 线 城市 用 户 高 达 55.1% ， 
二 线 城市 用 户 占 比 24.7% ,说 明 目 前 知 乎 live 平台 的 


实 的 用 户 基础 。 此 类 用 户 偏 好 属性 较为 明显 ,关注 了 
较 多 的 知识 直播 课程 主讲 人 及 相关 话题 ,善于 通过 收 
藏 进行 知识 沉 诈 ,也 会 在 平台 上 积极 提问 。 价 值 属 性 

方面 ,此 类 用 户 购买 能 力 强 ,消费 金额 多 在 1 900 元 左 
右 ,平均 每 月 消费 5 -6 次 ,使 用 平台 的 时 间 较 长 ,并 且 
多 数 用 户 近 期 仍 有 消费 行为 ,少数 无 消费 的 用 户 参 与 
次 数 及 消费 频率 均 较 高 ,证明 与 平台 的 粘性 较 好 ,具有 
一 定 的 品牌 忠诚 度 。 该 群体 是 知识 直播 平台 得 以 持续 


主体 市 场 为 国内 一 、 二 线 城市 。 用 户 所 在 行业 前 5 位 
分 别 是 :互联 网 ,\ 金 融 教育 \ 计 算 机 、 法 律 ,说 明 付 费用 
户 可 能 主要 来 源 于 一 、 二 线 城市 白领 以 及 在 校 大 学 生 
等 对 专业 技能 、 自 我 提升 有 和 需求 的 人 和 群 。 用 户 偏 好 属 
性 维度 , 显 性 需求 标签 提问 数 小 于 10 的 占 比 77.9%， 
而 隐 性 需求 标签 收藏 数 ,关注 人 数 ,关注 内 容 数 主要 集 
中 在 30 -50 区 间 ,说 明 这 些 用 户 不 善于 主动 提问 而 直 


发 展 的 关键 ,因此 应 进一步 提高 这 些 用 户 对 平台 的 认 
可 度 ,不 断 优 化 用 户 体验 , 可 以 通过 积分 、 等 级 .特权 等 
方式 提高 用 户 的 身份 价值 ,同时 激励 这 些 用 户 积极 参 
与 平台 内 容 贡献 ,实现 从 被 动 获取 知识 到 主动 输出 优 
质 内 容 的 转化 ,实现 平台 的 良性 循环 。 

4.3.2 沉睡 型 流失 用 户 “ 此 类 用 户 人 数 较 少 , 仅 占 
6.15% .其 中 男性 偏 多 ,多 居住 于 二 线 城 市 ,法 律 、 医 疗 


接 暴露 需求 ,因此 在 运营 时 应 注意 把 握 用 户 的 隐 性 需 


等 专业 性 较 强 的 行业 较 多 。 该 群体 的 典型 特征 是 首次 


89 


图 二 情报 三 作 


第 63 卷 第 5 期 2019 年 3 月 


消费 时 间 为 12 个 月 以 前 ,属于 老 客户 群体 ,但 是 最 近 
90 天 无 消费 行为 ,并 且 往 期 消费 频率 低 ,平均 每 月 消 
费 不 到 一 次 ,说 明 这 一 类 别 的 用 户 属 于 不 活跃 群体 并 
且 已 对 平台 失去 兴趣 。 然 而 也 应 注意 到 ,该 类 群体 往 


与 需求 特征 均 不 明显 ,消费 次 数 , 频 率 、 金 额 也 不 高 , 原 
因 可 能 在 于 用 户 刚 刚 接 触 这 类 平台 ,对 平台 的 信任 感 、 
归属 感 还 有 待 加 强 , 或 者 对 平台 的 各 项 功能 还 不 够 了 
解 。 因 此 针对 此 类 用 户 ,平台 应 尽快 挖掘 并 满足 其 付费 


期 消费 金额 较 多 ,导致 流失 情况 可 能 因为 用 户 体验 不 
尽 人 意 ,碎片 化 知识 无 法 满足 系统 学 习 的 需求 。 也 可 
能 与 用 户 所 从 事 的 行业 有 关 , 用 户 往往 为 了 解决 某 一 
具体 问题 而 付费 ,持续 性 消费 意愿 不 强烈 。 鉴 于 此 ,3 
台 运 营 者 可 从 两 方面 挽回 已 流失 的 用 户 : 一 方面 ,通过 
回访 调研 用 户 流失 的 原因 ,充分 挖掘 其 潜在 需求 ,进行 
平台 及 内 容 的 更 新 迭代 以 优化 用 户 体验 ; 另 一 方面 , 通 
过 消息 提醒 .课程 推送 等 方式 与 用 户 建 立 联系 ,激活 用 
户 再 次 使 用 的 意愿 。 

4se8 社交 型 经 济 用 户 “ 占 比较 少 ,男性 偏 多 。 这 类 群 
体 天 多 居住 在 二 线 城市 ,所 在 行业 多 为 教育 或 者 计算 
机 s- 该 群体 关注 的 人 数 在 5 类 群体 中 最 多 ,体现 出 明显 
的 种 交 属 性 ,但 是 收藏 ,关注 话题 内 容 、 提 问 的 数量 较 
天 户 需 求 特征 并 不 明显 。 价 值 属性 方面 ,首次 消费 
时 间 在 3 - 12 个 月 以 前 ,近期 仍 有 消费 ,说 明 用 户 与 平 
入) 度 较 高 。 同 时 消费 次 数 较 多 ,频率 也 比较 高 ,属于 
清 中 性 用 户 群体 ,但 是 所 消费 金额 并 不 多 ,说 明 该 类 用 
但 行 知识 付费 时 主要 选择 单价 较 低 或 者 有 折扣 优 
三 阅 课 程 。 该 群体 用 户 往往 没有 急切 性 的 需求 ,付费 意 
愿 复 受 到 价格 影响 ,从 而 在 平台 上 进行 稳定 、 持 续 性 的 
洲 要 投资 。 因 此 运营 过 程 中 应 善于 把 握 该 类 用 户 特点 ， 
通过 发 放 优惠 券 .推送 折扣 信息 等 方式 刺激 其 不 断 消费 。 
4:3=4 ”需求 型 潜力 用 户 ”这 类 群体 占 比 为 11. 38% ， 
主要 为 二 线 城 市 的 男性 用 户 ,所 在 行业 多 为 金融 .计算 
机 。 该 群体 在 偏好 属性 上 表现 为 高 收藏 .高 关注 、 高 提 
问 ,说 明 其 需求 偏好 特征 明显 ,属于 主动 学 习 型 的 用 


局 


in 


需求 ,用 各 种 运营 手段 触 达 用 户 ,告知 活动 信息 ,积极 引 
导 新 兴 用 户 向 活跃 用 户 转变 。 同 时 建立 用 户 激 励 体系 ， 
在 用 户 提 升 等 级 并 获得 成 就 感 的 同时 ,也 深化 用 户 对 平 
台 的 了 解 。 此 外 ,该 类 群体 主要 居住 于 三 线 城市 ,并 且 
人 数 较 多 ,说 明知 识 直 播 平台 辐射 范围 已 从 一 、 二 线 城 
市 向 三 、 四 线 城 市 扩散 ,三 、 四 线 城市 市 场 前 景 广阔 。 


本 文 以 知识 直播 平台 的 付费 用 户 为 研究 对 象 , 首 
先 从 付费 用 户 基本 属性 、 偏 好 属性 \ 价 值 属性 3 个 维度 
提取 出 16 个 标签 。 然 后 利用 八 爪 鱼 采 集 器 采集 了 知 
乎 live 平台 18 520 组 付费 用 户 数 据 , 经 过 预 处 理 之 后 
保留 12 545 组 数据 作为 样本 ,再 运用 密度 峰值 聚 类 算 
法 将 样本 数据 划分 为 5 个 群体 。 最 后 通过 类 比 各 群体 
的 聚 类 中 心 点 并 与 整体 画像 对 比 ,呈现 出 知 乎 live 平 
台 付 费用 户 的 5 类 群体 画像 :中 忠诚 型 价值 用 户 ,消费 
金额 及 频率 高 ,对 平台 价值 大 ;@ 沉 睡 型 流失 用 户 , 近 
期 无 消费 行为 ,在 平台 表现 不 活跃 ;@ 社 交 型 经 济 用 
户 ,社交 属性 明显 ,通常 只 会 为 单价 低 的 产品 付费 ;中 
需求 型 潜力 用 户 ,需求 偏好 特征 明显 ,但 是 付费 并 不 
多 ,消费 潜力 大 ;@@ 新 兴 竺 激励 用 户 ,近期 刚刚 开始 使 
用 平台 ,需要 平台 激励 从 而 向 活跃 用 户 转化 。 

本 文 构 建 的 基于 密度 峰值 聚 类 的 知识 直播 平台 付 
费用 户 群 体 画 像 应 用 性 较 强 。 首 先 ,采用 密度 峰值 聚 
类 算法 进行 群体 划分 ,充分 发 挥 了 密度 峰值 聚 类 在 处 
理 多 维 数据 时 的 优越 性 , 聚 类 速度 大 大 提高 ;其 次 ,不 


户 ,消费 潜力 大 。 但 是 该 群体 对 于 平台 的 价值 并 不 高 ， 
具体 体现 为 消费 次 数 少 .消费 频率 较 低 ,首次 消费 时 间 
距 今 较 远 且 近期 无 消费 行为 ,这 就 说 明 该 群体 用 户 的 
消费 行为 并 不 活跃 ,对 平台 的 依赖 程度 低 。 原 因 可 能 
在 于 用 户 对 以 往 的 付费 体验 不 满意 ,认为 知识 直播 不 
能 满足 其 个 人 需求 。 针 对 该 人 群 ,可 以 根据 他 们 的 偏 
好 属性 挖掘 出 需求 主题 ,实现 针对 性 .个 性 化 的 定制 推 
送 ,改善 用 户 体验 ,进而 激发 其 消费 潜力 。 

4.3.5 新 兴 待 激励 用 户 “ 所 占 比例 较 大 , 仅 次 于 忠诚 
型 价值 用 户 群 体 。 男 性 较 多 ,大 部 分 居住 于 三 线 城市 ， 
教育 领域 的 用 户 较 多 。 这 类 群体 的 首 、 末 次 消费 时 间 
均 在 3 个 月 内 ,说 明 他 们 使 用 该 知识 直播 平台 的 时 间 
不 长 , 现 阶 段 仍 属于 留存 用 户 。 偏 好 属性 方面 的 社交 
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需 人 为 事先 确定 群体 个 数 , 聚 类 结果 更 为 合理 。 知 识 
直播 平台 可 根据 付费 群体 画像 挖掘 其 特征 及 需求 ,从 
而 进行 精准 运营 ,针对 性 地 完善 平台 产品 及 服务 ,助力 
产品 快速 变现 。 
由 于 平台 数据 的 保密 性 ,本 文 利用 扑 虫 抓 取 的 数 
据 还 不 够 全 面 , 例 如 缺乏 动态 性 的 用 户 浏览 数据 、 用 户 
搜索 数据 等 ,后 期 研究 中 将 着 重 考虑 如 何 获取 更 为 全 
面 的 标签 数据 , 细 化 用 户 画 像 的 颗粒 度 , 刻 画 更 为 精 
准 \ 丰 富 的 用 户 画 像 。 
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Abstract: [Purpose/significance | This paper aims at giving effective enlightenment and method for the platform to 


carry out targeted operations and discover the potential value users. 


[ Method/ 


process | This paper takes the knowledge live platform as the research object, firstly designing the concept model of the 


group portrait, 


then putting forward the method of the paid -up user persona of the knowledge live platform based on the 


density peak clustering, and finally taking the data of paid-up users in Zhihu live platform as an sample, and using the 


density peak clustering algorithm in Matlab to divide the sample data into groups. 


[ Result/ conclusion | The experimental 


results show that there are five typical user groups in Zhihu live platform. By comparing and analyzing the cluster center 


points, 


Keywords: knowledge online live 


density peaks clustering 


we identify the typical characteristics of each group, and propose the precise operation strategy. 


user persona paid-up members 
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